智能论文笔记

Small Object Detection using Deep Learning

Aleena Ajaz , Ayesha Salar , Tauseef Jamal , Asif Ullah Khan

分类：计算机视觉 | 机器学习

2022-01-10

现在，诸如无人机之类的无人机，从捕获和目标检测的各种目的中，从Ariel Imagery等捕获和目标检测的各种目的很大使用。轻松进入这些小的Ariel车辆到公众可能导致严重的安全威胁。例如，可以通过使用无人机在公共公共场合中混合的间谍来监视关键位置。在手中研究提出了一种改进和高效的深度学习自治系统，可以以极大的精度检测和跟踪非常小的无人机。建议的系统由自定义深度学习模型Tiny Yolov3组成，其中一个非常快速的物体检测模型的口味之一，您只能构建并用于检测一次（YOLO）。物体检测算法将有效地检测无人机。与以前的Yolo版本相比，拟议的架构表现出显着更好的性能。在资源使用和时间复杂性方面观察到改进。使用召回和精度分别为93％和91％的测量来测量性能。

translated by 谷歌翻译

Biomedical image analysis competitions: The state of current participation practice

Matthias Eisenmann , Annika Reinke , Vivienn Weru , Minu Dietlinde Tizabi , Fabian Isensee , Tim J. Adler , Patrick Godau , Veronika Cheplygina , Michal Kozubek , Sharib Ali

分类：计算机视觉 | 机器学习

2022-12-16

The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.

translated by 谷歌翻译

Efficient Sparsely Activated Transformers

Salar Latifi , Saurav Muralidharan , Michael Garland

分类：机器学习 | 人工智能 | 自然语言处理

2022-08-31

基于变压器的神经网络已在许多机器学习领域（包括自然语言处理和计算机视觉）中实现了最新的任务性能。为了进一步提高其准确性，最近的工作探索了动态行为的整合到这些网络中的形式（MOE）层的形式。在本文中，我们探讨了MOE层的引入以优化不同的指标：推理潜伏期。我们介绍了一个名为Planer的新型系统，该系统采用了现有的基于变压器的网络和一个用户定义的延迟目标，并生成了原始网络的优化，稀疏激活的版本，该版本试图满足潜伏期目标，同时保持基线准确性。我们使用变压器-XL网络对两个现实世界的语言建模任务进行评估，并在ISO准确性上实现超过2倍的推理潜伏期降低。

translated by 谷歌翻译

HTML版本

A Web Application for Experimenting and Validating Remote Measurement of Vital Signs

Amtul Haq Ayesha , Donghao Qiao , Farhana Zulkernine

分类：人工智能 | 计算机视觉

2022-08-21

随着在线医疗的激增，需要对患者生命力进行远程监测。这可以通过从面部视频中计算生命体征的远程照相学（RPPG）技术来促进。它涉及处理视频帧以获取皮肤像素，从中提取心脏数据并应用信号处理过滤器以提取血量脉冲（BVP）信号。将不同的算法应用于BVP信号以估计各种生命体征。我们实施了一个Web应用程序框架，以测量一个人的心率（HR），心率变异性（HRV），氧饱和度（SPO2），呼吸率（RR），血压（BP）和面部视频的压力。RPPG技术对照明和运动变化高度敏感。Web应用程序指导用户减少由于这些变化而减少噪音，从而产生清洁器的BVP信号。框架的准确性和鲁棒性在志愿者的帮助下得到了验证。

translated by 谷歌翻译

Lung nodules segmentation from CT with DeepHealth toolkit

Hafiza Ayesha Hoor Chaudhry , Riccardo Renzulli , Daniele Perlo , Francesca Santinelli , Stefano Tibaldi , Carmen Cristiano , Marco Grosso , Attilio Fiandrotti , Maurizio Lucenteforte , Davide Cavagnino

分类：计算机视觉

2022-08-01

准确且一致的边界分割在肿瘤体积估计及其在医学图像分割领域中的处理中起着重要作用。在全球范围内，肺癌是死亡的主要原因之一，肺结节的早期发现对于早期癌症诊断和患者的存活率至关重要。这项研究的目的是证明DeepHealth Toolkit的可行性，包括PYECVL和PYEDDL库（包括精确的肺结节）。使用PYECVL和PYEDDL在UnitoChest上进行了肺结节分割的实验，以进行数据预处理以及神经网络训练。结果描述了在较宽的直径范围内对肺结节的准确分割，并且在传统检测方法上的准确性更好。本文中使用的数据集和代码可作为基线参考公开提供。

translated by 谷歌翻译

Learning an Interpretable Model for Driver Behavior Prediction with Inductive Biases

Salar Arbabi , Davide Tavernini , Saber Fallah , Richard Bowden

分类：机器人

2022-07-31

为了计划安全的演习并采取远见卓识，自动驾驶汽车必须能够准确预测不确定的未来。在自主驾驶的背景下，深层神经网络已成功地应用于从数据中学习人类驾驶行为的预测模型。但是，这些预测遭受了级联错误的影响，导致长时间的不准确性。此外，学识渊博的模型是黑匣子，因此通常不清楚它们如何得出预测。相比之下，由人类专家告知的基于规则的模型在其预测中保持长期连贯性，并且是可解释的。但是，这样的模型通常缺乏捕获复杂的现实世界动态所需的足够表现力。在这项工作中，我们开始通过将智能驱动程序模型（一种流行的手工制作的驱动程序模型）嵌入深度神经网络来缩小这一差距。我们的模型的透明度可以提供可观的优势，例如在调试模型并更容易解释其预测时。我们在模拟合并方案中评估我们的方法，表明它产生了可端到端训练的强大模型，并无需为模型的预测准确性提供更大的透明度。

translated by 谷歌翻译

Blessing of Nonconvexity in Deep Linear Models: Depth Flattens the Optimization Landscape Around the True Solution

Jianhao Ma , Salar Fattahi

分类：机器学习 | (统计)机器学习

2022-07-15

这项工作表征了深度对线性回归优化景观的影响，表明尽管具有非凸性，但更深的模型具有更理想的优化景观。我们考虑了一个健壮且过度参数化的设置，其中测量的子集严重损坏了噪声，真正的线性模型将通过$ n $ layer-layer线性神经网络捕获。在负面方面，我们表明这个问题\ textit {do}具有良性景观：给定任何$ n \ geq 1 $，具有恒定概率，存在与既不是本地也不是全局最小值的地面真理的解决方案。但是，从积极的一面来看，我们证明，对于具有$ n \ geq 2 $的任何$ n $ layer模型，一种简单的次级方法变得忽略了这种``有问题的''解决方案；取而代之的是，它收敛于平衡的解决方案，该解决方案不仅接近地面真理，而且享有平坦的当地景观，从而避免了“早期停止”的需求。最后，我们从经验上验证了更深层模型的理想优化格局扩展到其他强大的学习任务，包括具有$ \ ell_1 $ -loss的深层矩阵恢复和深度relu网络。

translated by 谷歌翻译

A Transfer Learning Based Model for Text Readability Assessment in German

Salar Mohtaj , Babak Naderi , Sebastian Möller , Faraz Maschhur , Chuyang Wu , Max Reinhard

分类：自然语言处理 | 人工智能 | 机器学习

2022-07-13

从语言学习者到残疾人，文本可读性评估对不同目标人士有广泛的应用。网络上文本内容生产的快速速度使得如果没有机器学习和自然语言处理技术的好处，就无法测量文本复杂性。尽管各种研究涉及近年来英语文本的可读性评估，但仍有改进其他语言的模型的空间。在本文中，我们提出了一种基于转移学习的德语文本评估文本复杂性评估的新模型。我们的结果表明，该模型比从输入文本中提取的语言特征优于更多经典的解决方案。最佳模型是基于BERT预训练的语言模型，达到了均方根误差（RMSE）为0.483。

translated by 谷歌翻译

Cooperative Multi-Agent Search on Endogenously-Changing Fitness Landscapes

Chin Woei Lim , Richard Allmendinger , Joshua Knowles , Ayesha Alhosani , Mercedes Bleda

分类：人工智能 | 神经与进化计算

2022-06-28

我们使用多机构系统来建模代理（代表公司）如何合作并适应业务“景观”，其中一些更具影响力的公司有能力塑造其他公司的景观。我们研究的景观是基于著名的Kauffman的NK模型，并增加了“塑造者”，这些公司可以为自己和所有其他玩家改变景观的特征。我们的工作调查了还可以赋予认知和体验式搜索的公司，以及与其他公司建立合作的能力，可以使用这些能力来更快，更熟练地适应。我们发现，在一个合作集团中，公司仍然必须有自己的想法，并抵制更强大的合作伙伴的直接模仿，以共同达到更好的高度。具有更大影响力成员的较大群体和群体通常会做得更好，因此有针对性的智能合作是有益的。这些结论是暂定的，我们的结果表明了对景观坚固性和“锻造性”的敏感性（即，塑造公司将改变景观的能力）。总体而言，我们的工作展示了计算机科学，演变和机器学习在这些复杂环境中为业务策略做出贡献的潜力。

translated by 谷歌翻译

SLIC: Self-Supervised Learning with Iterative Clustering for Human Action Videos

Salar Hosseini Khorasgani , Yuxuan Chen , Florian Shkurti

分类：计算机视觉

2022-06-25

自我监督的方法已通过端到端监督学习的图像分类显着缩小了差距。但是，在人类动作视频的情况下，外观和运动都是变化的重要因素，因此该差距仍然很大。这样做的关键原因之一是，采样对类似的视频剪辑，这是许多自我监督的对比学习方法所需的步骤，目前是保守的，以避免误报。一个典型的假设是，类似剪辑仅在单个视频中暂时关闭，从而导致运动相似性的示例不足。为了减轻这种情况，我们提出了SLIC，这是一种基于聚类的自我监督的对比度学习方法，用于人类动作视频。我们的关键贡献是，我们通过使用迭代聚类来分组类似的视频实例来改善传统的视频内积极采样。这使我们的方法能够利用集群分配中的伪标签来取样更艰难的阳性和负面因素。在UCF101上，SLIC的表现优于最先进的视频检索基线 +15.4％，而直接转移到HMDB51时，SLIC检索基线的率高为15.4％， +5.7％。通过用于动作分类的端到端登录，SLIC在UCF101上获得了83.2％的TOP-1准确性（+0.8％），而HMDB51（+1.6％）上的fric fineTuns in top-1 finetuning。在动力学预处理后，SLIC还与最先进的行动分类竞争。

translated by 谷歌翻译